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基于 LPCA 的 谱 聚 类 算法 
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摘 要 : 针对 传统 谱 聚 类 在 构建 关系 给 阵 时 只 考虑 样 本 的 全 局 特征 而 忽略 样本 的 局 部 特征 、 在 聚 类 划分 时 通常 需要 指 
定 聚 类 个 数 、 无 法 对 交叉 点 进行 正确 划分 等 问题 ,提出 了 一 种 改进 的 基于 局 部 主 成 分 分 析 和 连通 图 分 解 的 谱 聚 类 算法 。 
首先 自动 学 习 挑 选 数 据 集 的 中 心 点 ， 然 后 使 用 局 部 主 成 分 分 析 得 到 数据 集 的 关系 给 阵 ， 最 后 用 连通 图 分 解 算 法 完成 对 
关系 矩阵 的 划分 。 实 验 结果 表明 提出 的 改进 算法 性 能 优 于 现 有 经 典 算法 。 
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Spectral clustering algorithm based on LPCA 


Tong Tao, Wen Guogiui, Tan Malong, Wu Lin, Du Tingting 
(Guangxi Key Laboratory of Multi-source Information Mining & Security Guangxi Normal University, Guilin Guangxi 541004, 
China) 


Abstract: As the traditional spectral clustering algorithms 1) only considered the global structures of the samples while ignoring 
their local structures for the construction of the correlation matrix; 2) conducted clustering with a predefined cluster number; 3) 
could not divide the intersections correctly. This paper proposes a new method based on the local principal component analysis 
and the decomposition method of the connected graph. Specifically, the proposed method automatically learns the centroids of 
the selected subset of the samples, obtains the correlation matrix of the samples based on the local principal component analysis, 
and uses the decomposition method of the connected graph to partition the resulting correlation matrix. Experimental results 


show that the proposed algorithm performs better than the existing algorithms. 


Key words: local principle content analysis; spectral clustering; connected graph decomposition; intersection 


一 0 als 行 聚 类 的 问题 “， 通 过 引入 高 斯 分 布 函数 ”使 得 该 算法 突破 了 
7 SiGe BE RAY AH IR ll, (AE VaR tis BET EEA A ko AS 


BEF OLE AG AED] CE AE AA IE AB Sel 4} fe] KRE AST] 。 同时 解决 K-means 算法 的 两 个 问题 “， 提 出 了 通过 样本 密度 来 
样本 划分 到 不 同 的 类 或 簇 的 一 种 常见 数据 处 理 技术 。 根 据 聚 类 ”确定 中 心 点 ,将 中 心 点 附近 的 样本 划分 为 该 中 心 点 类 别 的 算法 。 


方式 ， 现 有 聚 类 算法 可 以 分 为 划分 式 聚 类 、 层 次 化 聚 类 、 基 于  ” 此 方法 使 传统 K-means 的 两 大 问题 都 得 到 了 解决 ,但 这 种 方法 
BES EF RU RS AK) SE SAGE FUP], 其 中 , K-means 思路 简单 量 易 于 颁 需要 计算 所 有 样本 的 密度 和 距离 ， 需 耗费 大 量 的 时 间 且 该 方法 
WM, 已 经 得 到 了 广泛 的 应 用 。 但 是 K-means 有 两 个 较为 突出 的 ”也 没有 解决 交叉 点 划分 困难 的 问题 。 

问题 , 即 聚 类 中 心 的 初始 化 和 聚 类 个 数 的 确定 。 常 见 的 K-means 本 文 提出 了 一 种 基于 局 部 主 成 分 分 析 和 连通 图 分 解 的 谱 聚 
方法 采用 各 式 各 样 的 聚 类 中 心 初 始 化 方法 ， 不 同 的 初始 化 导致 ” 类 算法 (spectral clustering based on local principle content 


不 同 的 聚 类 结果 。 另 外 ， 人 工 指定 类 数 的 方法 需要 经 验 或 者 对 ” analysis,SC-LPCA)。 具 体 地 说 ， 首 先 随 机 选 出 数据 集中 一 部 分 
数据 分 布 具有 先 验 知识 。 数据 作为 新 的 数据 集 ， 再 对 新 数据 集中 的 每 个 样本 求 出 其 邻 域 
为 了 解决 K-means 自身 存在 的 问题 , 研究 者 提出 了 各 种 改 ”样本 构成 的 矩阵 ,然后 对 该 矩阵 集合 进行 LPCA (local principle 
BEN) K-means 算法 。 例 如， 针对 K-means 无 法 对 非 凸 数据 集 进 component analysis) 处 理 得 到 数据 集 的 关系 矩阵 ， 接 着 使 用 连 
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通 图 分 解 算法 对 关系 矩阵 进行 划分 ， 最 后 以 这 些 选取 的 点 为 中 
心 依照 距离 来 划分 剩余 所 有 点 ， 得 到 最 后 聚 类 结果 。 

本 文 算法 相 较 于 传统 的 聚 类 算法 的 优势 在 于 : a) 通过 挑选 
聚 类 的 中 心 点 而 不 是 直接 聚 类 整个 数据 集 ， 大 幅度 地 减少 了 聚 
类 的 计算 量 ; b) 通过 使 用 LPCA 使 得 到 的 关系 矩阵 较 好 地 描述 
了 数据 集 的 局 部 特征 ， 提 升 了 算法 聚 类 性 能 ，c) 利 用 数据 挑选 
和 LPCA 处 理 ,解决 了 多 流 形 数据 集 的 交叉 点 划分 困难 甚至 错 
误 的 问题 ，d) 使 用 连通 图 分 解 算法 ， 不 用 指定 聚 类 个 数 ， 就 可 
以 完成 聚 类 ， 降 低 了 聚 类 复杂 性 和 难度 。 


1 ”相关 理论 


1.1 局 部 主 成 分 分 析 
主 成 分 分 析 "” (principal component analysis, PCA) 是 一 种 
将 高 维 数据 投影 到 低 维 数据 空间 的 方法 。 给 定 一 个 样本 数据 集 
,XsJeR”“ (d 是 样本 的 属性 数 ，n 是 样本 个 数 )， 对 
样本 集 先进 行 中心 化 (Ex;=0 ) 然 后 求 出 数据 集 的 协 方差 再 对 
和 性 进行 排序 ， 取 值 大 的 


S 


A S oe a 


Hid’ Ca'<d) 个 属性 。 这 样 就 得 到 了 样本 点 x, 在 低 维 坐标 系 


中 的 投影 Zi = can Ziz» ses Za) R 中 qj 三 wx, , 是 样本 x, 在 低 维 坐 


标 系 下 第 7 了 维 的 值 。 由 于 协 方差 可 以 衡量 样本 间 的 离散 程度 ， 
而 PCA 利用 了 样本 的 全 局 的 协 方差 。 因 此 得 到 的 结果 较 好 的 保 
留 了 原始 数据 集 的 全 局 结构 特征 。 
局 部 主 成 分 分 析 外 (LPCA) 它 是 在 传统 主 成 分 分 析 上 的 一 
种 改进 。 其 分 析 对 象 不 再 是 整个 数据 集 的 分 布 情况 ， 而 是 研究 
单个 数据 与 其 周围 邻 域 数据 之 间 的 分 布 情况 。 通 过 对 样本 邻 域 
所 构成 的 子 集 去 做 协 方差 处 理 和 特征 值 分 解 ， 使 得 到 的 结果 能 
更 好 的 反映 样本 与 其 周围 样本 之 间 的 关系 。 通 过 LPCA 处 理 得 
到 的 关系 矩阵 能 更 好 的 反映 数据 集 的 真实 结构 ， 也 能 更 好 的 体 
现 样 本 间 的 局 部 特征 。 
1.2 WRX 
谱 聚 类 [1013] (spectral clustering, SC) 是 一 种 利用 图 论 的 思 
想 ， 把 聚 类 转换 成 了 图 的 分 割 问题 的 聚 类 方法 。 给 定 图 G， 把 
数据 集 x eR” 中 每 一 个 样本 当 作 一 个 点 到 样本 点 之 间 的 相关 
性 定义 为 边 E， 这 样 就 形成 了 该 数据 集合 构成 的 图 GV,E) 。 然 
后 依据 此 图 构造 关系 矩阵 丈 ， 通 常用 欧式 距离 来 描述 样本 之 间 


的 相关 性 ， 即 = e -x 省 。 我 们 把 一 个 点 的 所 有 与 之 相连 的 


边 的 权 值 相 加 得 到 的 结果 称 为 该 点 的 度 记 为 we ， 表 示 如 下 : 


de =  w, (]) 


U 


把 所 有 样本 点 的 度 构 成 的 矩阵 称 为 度 和 矩阵 DFR RE 
阵 W ARES BE D 计算 得 到 拉 普 拉 斯 矩阵 工 =D- 丈 。 然 后 对 工 求 
协 方差 并 进行 特征 值 分 解 ， 取得 到 的 结果 的 前 a' 个 特征 值 所 对 
应 的 特征 向 量 构 成 新 的 特征 和 矩阵， 最 后 把 下 的 每 一 行当 成 一 


个 新 的 样本 庆 e R ,使 用 K-means X} F BE{TRI4}, 即 为 最 终 
的 聚 类 结果 。 谱 聚 类 最 大 的 特点 是 它 通 过 谱 图 的 引入 巧妙 地 解 
决 了 以 前 直接 使 用 KK-means 聚 类 时 存在 的 无 法 处 理 非 凸 数据 得 
的 问题 。 
基于 LPCA 的 谱 聚 类 算法 ， 是 在 传统 谱 聚 类 的 基础 之 上 通 
过 引入 数据 样本 在 局 部 的 分 布 特 性 ， 来 对 数据 集 进行 分 析 。 这 
样 可 以 比较 充分 地 利用 数据 在 局 部 所 具有 的 特性 ， 而 不 是 直接 
以 数据 集 为 一 个 整体 去 分 析 数 据 集 的 分 布 特点 以 及 数据 样本 之 
间 的 关系 ， 这 样 能 更 加 充分 地 利用 原始 数据 所 包含 的 信息 。 得 
到 的 关系 矩阵 更 能 表征 原始 的 数据 集 ， 这 对 于 提升 算法 的 聚 类 
性 能 有 很 大 的 帮助 。 


aur 


2 ”算法 描述 
本 文 提出 的 SC-LPCA 算法 通过 引入 中 心 样本 的 邻 域 子 身 
和 LPCA 处 理 ， 保 留 了 数据 集 的 局 部 特征 ， 并 且 通 过 连通 图 的 
分 解 使 得 聚 类 不 需要 指定 类 的 个 数 就 可 以 自动 完成 。 下 文 将 详 
细 介 绍 SC-LPCA 算法 步骤 。 
给 定 样 本 集 半 =[xi,x,…,x4]e R”™ ， 随 机 挑选 一 个 样本 记 为 
vo BRIEY r 表达 式 如 下 : 


nt 


r = mean |x; = x; 


, G7 € lb a) (2) 


EA y, ABP IA MNO) 表达 式 如 下 : 


NM x)= {x -xs (3) 


以 yy 为 中 心 ， 


随机 挑选 一 个 不 在 NrGy,) 中 的 样本 记 为 mw 


Bl: ye Nr(y,) 。 重 复 该 挑选 操作 nn 次 ,得 到 原始 数据 集 的 中 


心 点 构成 的 新 数据 集 了 = (yyy. 9,1 E R 。 对 得 到 的 新 数据 


集 了 的 每 个 样本 的 邻 域 所 构成 的 矩阵 ， 求 其 协 方差 记 为 C,， 表 
达 式 如 下 : 


C =y °y; (4) 
对 C, 进行 特征 值 分 解 ， 取 分 解 后 值 较 大 的 前 a 
(d'e [hd — 1) ) 个 特征 值 对 应 的 特征 向 量 所 构成 的 矩阵 记 为 
2 。 样 本 的 空间 阔 值 记 为 £ 表达 式 如 下 : 


e = max min |y, - y, 6) 
样本 的 投影 规模 阔 值 记 为 7 ， 表 达 式 如 下 ， 
Te resin 2, - 2, (6) 


依据 得 到 的 数据 集 了 和 投影 结果 O 计算 出 关系 矩阵 W, 
表达 式 如 下 : 


,onc BD joe E 0 
E 1 


把 用 于 对 W HEAT 0,1 化 的 闵 值 记 为 6， 其 表达 式 如 下 : 


6 = NUM x (median W) (NUM eœ (0,1)) (8) 
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对 丈 进 行 划分 的 表达 式 如 下 : 


a 
w = 


0, otherwise 


(9) 


使 用 得 到 的 关系 矩阵 W” 构造 出 连通 图 集合 ， 对 每 个 连通 
进行 递归 分 解 ， 对 得 到 的 最 大 连通 图 计算 其 分 裂 阔 值 4 与 承 
受 闵 值 1 的 关系 来 决定 是 否 分 解 。t 的 表达 式 如 下 : 


1 N 


t = min{w,w}/n, (10) 


其 中 : u, 5 u, RAND A aS A, 而 n, 表示 两 个 


连接 部 分 的 边 的 数量 。4 的 表达 式 如 下 : 
= Ta (11) 
2 


其 中 : a 表示 最 大 连通 图 中 边 的 数量 , b 表示 最 大 连通 图 中 点 的 
数量 。 依 据 4 与 t 的 关系 分 解 完 所 有 连通 图 集合 ， 即 所 有 中 心 
点 得 到 正确 划分 。 最 后 按照 离 中 心 点 的 距离 划分 剩余 所 有 的 点 
的 类 别 。 
算法 流程 如 下 : 
SC-LPCA 算法 伪 代 码 
iA: WEEE X s ee. RAEE EEE d'o 
输出 ， 聚 类 结果 。 
1. 随机 挑选 然后 再 随机 挑选 不 在 Nr(y,) 中 的 样本 为 y, ,重复 m 次 得 
到 挑选 后 的 数据 集 ¥ < Re ; 
2. 对 每 一 个 样本 y, 计算 它 的 邻 域 子 集 Nr(y,) 的 协 方差 值 C; ,对 C; 进行 
特征 值 分 解 取 最 大 的 d" 个 特征 值 对 应 的 特征 向 量 所 构成 的 矩阵 记 为 8, ; 
3. 按照 公式 (7) HEN ; 
4. 按照 公式 (9) 用 5 对 W 进 行 0, 1 化 ， 得 到 新 的 关系 矩阵 W”; 
5. 使 用 连通 图 分 解 算法 对 W” 进行 聚 类 划分 ; 
6. 以 得 到 的 划分 结果 为 中 心 点 计算 剩余 所 有 样本 到 中 心 点 的 距离 ， 样 本 
所 属 类 别 就 是 离 它 最 近 中 心 点 的 类 别 。 
本 文 所 提出 的 算法 选择 的 不 是 直接 对 原始 数据 集 怀 进行 相 


5 


得 到 的 样本 的 邻 域 所 构成 的 矩阵 做 协 方差 处 理 ， 使 得 局 部 样本 
尽量 聚拢 ， 即 同类 样本 内 部 的 关系 变 得 更 加 紧密 。 如 此 ， 虽 然 
能 使 交叉 点 彼此 达到 一 定 程度 上 的 分 离 ， 但 是 当 不 同 久 的 夹 角 
较 小 的 时 候 单 独 使 用 协 方差 不 一 定 能 很 稳定 的 实现 交叉 点 的 分 
离 。 如 图 1 所 示 ， 当 两 个 簇 的 夹 角 9 足够 小 的 时 候 样本 p 与 p 
之 间 的 距离 就 可 能 比 样本 p 与 p, 之 间 的 距离 小 , 这 样 在 以 距离 
来 划分 样本 类 别 的 时 候 可 能 就 出 现 错误 划分 的 情况 。 因 此 在 引 
入 协 方差 的 同时 ， 为 了 稳定 对 交叉 点 的 划分 效果 同时 引入 了 投 
影 。 通 过 投影 可 以 使 同类 样本 投影 后 更 加 亲密 ， 异 类 样本 投影 
后 更 加 琉 远 。 这 样 就 较 好 的 解决 了 可 能 出 现 的 不 同 的 簇 夹 角 过 
小 带 来 的 交叉 点 划分 困难 的 问题 ， 因 此 本 文 引入 了 LPCA 配合 


样本 挑选 来 解决 交叉 点 聚 类 困难 的 问题 。 
2 
y2 
0 PON pt) 
RSF Na y1 
E 2 


0 
图 1 交叉 点 

在 对 挑选 后 的 数据 集 进行 LPCA 处 理 后， 得 到 了 能 反映 原 
始 数据 集 的 真实 分 布 情况 的 关系 矩阵 。 由 于 初始 本 文 用 来 描述 
样本 之 间 的 关系 使 用 的 是 欧式 距离 所 形成 的 矩阵 ， 因 此 在 对 这 
个 关系 矩阵 不 断 的 操作 后 ， 得 到 的 关系 矩阵 仍然 是 一 个 实数 形 
成 的 关系 和 矩阵。 然而 在 使 用 这 个 关系 矩阵 构建 数据 集 的 连通 图 
的 时 候 所 有 数据 之 间 的 距离 一 定 都 不 为 0， 即 所 有 样本 彼此 都 
是 有 关系 的 。 因 此 ， 本 文 使 用 了 阔 值 5 对 这 个 实数 形成 的 关系 
矩阵 按照 公式 〈9) 进行 处 理 ,就 得 到 了 能 较 好 描述 类 f 
间 关 系 的 0、1 矩阵 〈0 表示 两 个 样本 之 间 无 关系 ，1 表示 两 个 


关 的 聚 类 操作 ， 而 是 先 通过 挑选 得 到 新 的 数据 集 了 ， 再 对 了 进 
行 聚 类 。 首 先 对 挑选 出 来 的 中 心 点 聚 类 然后 以 中 心 点 为 基础 ， 
依照 就 近 原则 划分 剩余 样本 ， 即 剩余 样本 所 属 的 类 别 就 是 离 它 
最 近 中 心 点 的 类 别 。 这 样 不 仅 缩小 了 聚 类 的 规模 降低 了 计算 量 ， 


样本 之 间 有 关系 )。 这 样 就 使 得 原始 的 全 连通 图 得 到 了 一 定 程 度 
上 的 分 解 , 即 通过 这 个 0、1 矩阵 得 到 了 能 表征 原始 数据 集 的 结 
构 特 征 的 连通 图 集合 。 
最 后 对 于 得 到 的 连通 图 集合 中 的 每 一 个 连通 图 ， 递 归 寻 找 


而 且 还 可 以 让 聚 类 的 中 心 点 不 至 于 过 分 集中 使 聚 类 的 划分 更 精 
确 。 如 此 ， 既 提高 了 算法 的 效率 又 提高 了 算法 的 聚 类 准确 性 。 

通过 对 挑选 后 的 数据 集 样 本 的 邻 域 所 构成 的 矩阵 集合 进行 
LPCA 处 理 ， 使 得 到 的 关系 矩阵 更 好 的 保留 了 原始 数据 集 样 本 
的 局 部 特征 。 除 此 之 外 投影 也 降低 了 待 计算 数据 集 的 规模 ， 进 


一 步 降低 了 计算 量 ， 这 在 处 理 高 维 数据 时 可 以 减少 计算 所 需 的 
时 间 。 
通过 使 用 中 心 点 挑选 配合 LPCA 处 理 ， 本 文 巧妙 地 解决 了 


真实 数据 集中 经 常会 出 现 的 交叉 点 聚 类 困难 甚至 错误 的 问题 。 
首先 ， 通 过 挑选 随机 点 邻 域外 的 点 为 中 心 点 使 得 异类 样本 尽 
分 开 ， 即 不 同 的 类 之 间 关 系 变 得 较为 松散 。 其 次 ， 通 过 对 挑选 


tal 


其 最 大 子 连通 图 。 找 到 最 大 子 连通 图 后 ， 计 算 在 此 情形 下 想 要 
进行 分 裂 的 部 分 与 剩余 部 分 所 计算 出 的 分 裂 病 值 4 与 承受 闵 值 
1 是 否 满足 关系 式 : 4>t， 当 该 式 子 成 立时 就 将 该 连通 图 分 解 成 
两 个 部 分 。 对 分 解 完成 后 ， 剩 余 的 部 分 同样 进行 递归 分 解 ， 一 
直到 整个 连通 图 所 有 可 能 的 分 解 结束 。 如 此 ， 对 整个 连通 图 外 
合 完成 分 解 ,得 到 的 每 一 个 子 连通 图 就 对 应 聚 类 结果 的 一 个 类 。 
这 样 通过 寻找 子 连通 图 ， 直 接 完 成 了 最 后 的 聚 类 划分 。 由 于 省 
去 了 对 数据 集 的 真实 类 个 数 上 的 寻找 问题 ， 以 及 不 确定 是 否 在 
划分 为 上 类 时 聚 类 效果 最 佳 的 问题 。 因 此 ，SC-LPCA 算法 不 但 
降低 了 聚 类 的 难度 而 且 提 高 了 聚 类 的 准确 率 。 

经 过 前 面 的 步骤 ， 挑 选 出 来 的 中 心 点 已 经 得 到 了 正确 的 外 


aur 
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录用 稿 È 涛 ， 等 : 基于 LPCA 的 谱 聚 类 


分 。 对 于 剩 下 来 的 样本 数据 ， 直 接 用 欧 氏 距离 来 衡量 样本 点 与 ” 示 。 本 文采 用 数据 集 有 不 同 规格 ,这样 能 全 面 评测 本 文 提 出 算 


中 心 点 的 距离 ， 然 后 将 剩余 样本 划 入 到 离 它 最 近 的 中 心 点 的 类 ”法 的 有 效 性 和 可 靠 性 。 
别 中 去 。 如 此 就 省 去 了 繁复 的 计算 ,完成 了 对 剩余 样本 的 聚 类 。 表 1 数据 集 规模 信息 
3 ”实验 结果 与 分 析 a 样本 个 数 属性 数 类 个 数 
Arrhythmia 452 279 13 
本 文 提出 的 算法 CSC-LPCA) 与 各 个 对 比 算法 均 使 用 Lungdiscrete 73 325 7 
MATLAB 2014a 编程 实现 ， 且 所 有 实验 均 是 在 Win10，64 位 操 YaleB 640 2016 10 
作 系 统 下 测试 完成 。 本 实验 所 使 用 的 硬件 环境 为 : CPU: Cars 392 8 3 
Intel?’ Core™ i7-7700 CPU @ 3.6 GHz， 内 存 :8 GB. Breast 699 10 2 
3.1 ”对比 算法 与 评价 指标 Auto 205 25 6 
为 了 更 好 地 衡量 本 文 提出 的 算法 的 性 能 ， 将 该 算法 与 其 他 Balance 625 4 3 
聚 类 算法 进行 对 比 ， 如 K-means、LSR、SSC 等 , 具体 对 比 算法 Crx 690 15 2 
详细 信息 如 下 : (本 文 将 K-means 这 个 经 典 的 聚 类 算法 作为 基 对 比 算法 中 的 各 参数 依据 对 应 算法 的 文献 进行 设 定 ， 其 中 
准 线 〈baseline) 来 衡量 所 有 的 算法 的 好 坏 ) 所 有 使 用 K-means 直接 聚 类 或 进行 聚 类 划分 的 地 方 , k 值 均 为 
K-means [1 是 通过 人 工 指 定 的 值 随机 挑选 个 样本 为 初 。 数据 集 的 真实 类 的 个 数 。 虽 然 SC-LPCA 算法 在 聚 类 过 程 中 不 


始 中 心 点 ， 通 过 计算 各 个 数据 点 距 中 心 点 的 距离 来 对 所 有 数据 。 需要 人 为 指定 聚 类 个 数 ， 但 是 为 了 与 对 比 算法 有 更 加 直观 的 比 
进行 聚 类 ， 然 后 计算 本 次 聚 类 后 各 类 的 平均 值 为 新 的 中 心 点 较 , 表 1 与 2 中 的 结果 都 是 在 聚 类 个 数 是 真实 类 情况 下 得 到 的 。 
以 此 更 新 旧 的 中 心 点 ， 重 复 迭代 上 述 过 程 至 聚 类 结果 稳定 即 为 ” 具体 的 说 ， 算 法 中 提 到 的 含 公 式 的 参数 ， 它 们 的 取 值 大 都 直接 
最 终 聚 类 结果 。 按 公式 计算 得 到 ， 少 数 参 数 会 在 公式 计算 的 结果 上 进行 一 定 的 
LRRL 1 Clow rank representation)， 首 先 对 数据 集 的 谱 图 。 ”缩放 。 例如 5 的 取 值 按 式 (8) 计算 得 到 , 但 是 在 具体 实验 调试 
所 表征 的 关系 矩阵 进行 低 秩 处 理 ， 然 后 调用 传统 聚 类 方法 对 处 。” 过程 中 一 般 针 对 不 同 的 数据 集 ， 为 了 得 到 更 好 的 聚 类 效果 ， 需 
里 后 的 关系 矩阵 进行 聚 类 划分 并 输出 最 后 结果 。 要 对 该 参数 进行 一 定 程度 的 缩小 ,通常 取 该 值 的 10" ~ 10°"? 倍 。 
LSRU6191 (least squares tegression)， 首 先 对 样本 数据 集 对 同样 ， 挑 选 样本 邻 域 的 阔 值 x 取 值 通常 是 按 式 (2) 计算 得 到 ， 
应 的 关系 矩阵 用 下 范 数 进 行 约束 使 得 到 的 矩阵 具有 更 好 的 内 聚 。” 但 是 有 时 为 了 得 到 更 好 的 聚 类 结果 也 会 取 该 值 的 0.5~ 1.5 倍 。 
性 ， 然 后 再 调用 传统 聚 类 的 方法 再 对 处 理 后 的 关系 矩阵 进行 聚 
类 划分 。 


Ul 


其 他 参数 如 n 取 值 使 用 的 是 10%~70% 总 样本 数 中 挑选 出 的 较 


DLE. (EH LPCA 进行 投影 时 ， 取 特征 值 分 解 后 的 最 大 的 a 
首先 求 出 其 他 样本 与 数据 样本 之 间 的 线性 关系 ， 并 使 用 F 范 数 。” 个 属性 , 其 中 a' 的 取 值 范围 是 de O, d -中 的 较 优 值 。 本 文采 
来 约束 该 关系 ， 求 出 这 个 样本 数据 集 的 关系 和 矩阵， 然后 调用 传 评价 指标 包括 ACC (accuracy， 准 确 率 )，NMI Cnormalized 
统 聚 类 的 方法 对 得 到 的 关系 矩阵 进行 聚 类 划分 并 输出 聚 类 结果 。 mutual information， 标 准 互信 息 )。 其 定义 形式 如 下 : 
NCut?!7] (normalized cut), 通过 对 数据 集 构造 的 带 权 重 的 
向 图 的 分 割 过 程 进行 约束 ， 使 得 到 的 分 割 后 的 块 之 间 的 所 有 
样本 的 割 的 和 最 小 。 然 而 标准 的 归 一 化 割 的 求解 是 NP-hard 问 在 这 里 4 是 样本 的 真实 标签 , i 表示 第 i 个 样本 的 预测 标签 ， 


SSQPP0 (subspace segmentation via quadratic programming ), 


— 
i 
pany 
ti 
ao 


acc=+51G =i) (12) 
Nn iz 


T 


题 ， 是 无 法 求解 的 。 本 文 所 使 用 的 对 比 算法 使 用 的 是 将 归 一 化 n EERS. 

割 的 求解 引入 拉 普 拉 斯 矩阵 ， 转 换 成 对 图 的 度 的 求解 ， 和 特征 NMIU WW = MWY) (13) 

值 的 求解 。 最 后 使 用 K-means 56 RXT RME e E FIT PA SQ EP IE VHU)HW) 

阵 的 聚 类 划分 并 输出 聚 类 结果 。 MIU,Y) 表示 标签 U( 真 实 标签 ) 和 标签 V( 预 测 标签 ) 之 间 的 
SSC?327] (sparse subspace clustering) 通过 对 样本 数据 集 对 互信 息 , HU) 表示 标签 AIG, HV) 表示 标签 V I, 

应 的 关系 矩阵 进行 约束 使 得 到 的 关系 矩阵 县 有 子 空间 的 稀 疏 性 ，“”3.3 ”实验 结果 与 分 析 

然后 再 调用 传统 的 聚 类 方法 对 处 理 后 的 数据 集 进 行 聚 类 划分 所 有 算法 在 8 个 数据 集 上 的 计算 结果 如 表 2、3 和 图 2 所 


输出 聚 类 结果 。 ae 
3.2 实验 设置 与 数据 集 
8 个 实验 数据 集 都 来 自 UCT， 数 据 集 的 详细 信息 如 表 1 所 
表 2 不 同 数据 集 下 各 算法 的 ACC 


1 http://archive. ics. uci. edu/ml/index. php 


201808.00104v1 


chinaXiv 


£ hinax iva (ERAT! 


ACC 对 比 MEM AccE st 


从 表 2 中 可 以 看 出 本 文 所 提出 的 算法 在 准 


确 率 上 相 较 对 比 


算法 在 8 个 数据 集 上 都 有 不 错 的 提升 。 例 如 对 于 数据 集 Cars 而 


NMI 对 比 nai Se 


算法 ， 它 通过 稀疏 子 空 


录用 稿 童 &, 等 : 基于 LPCA Wiss + 法 
数据 集 名 称 K-means LRR LSR SSQP NCut SSC SC-LPCA 
Arrhythmia 0.2235 0.2544 0.2522 0.2323 0.2876 0.2367 0.3111 
Lungdiscrete 0.5616 0.7260 0.7260 0.8082 0.8630 0.7260 0.8750 

YaleB 0.1891 0.3047 0.2859 0.2234 0.2891 0.2594 0.4219 
Cars 0.4490 0.4847 0.4643 0.5383 0.5153 0.5740 0.7092 
Breast 0.6009 0.6381 0.6381 0.6381 0.6009 0.6381 0.6810 
Auto 0.3220 0.3415 0.3268 0.3951 0.3512 0.3463 0.5238 
Balance 0.5120 0.5252 0.5296 0.5248 0.5168 0.5488 0.5556 
Crx 0.5333 0.5580 0.5435 0.5493 0.5478 0.5580 0.6087 
表 3 不 同 数据 集 下 各 算法 的 NMI 
数据 集 名 称 K-means LRR LSR SSQP NCut SSC SC-LPCA 
Arrhythmia 0.1990 0.2309 0.2173 0.2186 0.2322 0.2126 0.2369 
Lungdiscrete 0.5891 0.5988 0.6276 0.7619 0.7995 0.6339 0.9091 
YaleB 0.1160 0.2408 0.2308 0.1320 0.2385 0.2033 0.3217 
Cars 0.2049 0.2646 0.2702 0.2126 0.2202 0.2352 0.3453 
Breast 0.1261 0.6169 0.6169 0.6169 0.1261 0.6169 0.3443 
Auto 0.1000 0.1450 0.0626 0.1544 0.1533 0.1504 0.3615 
Balance 0.1009 0.1510 0.1483 0.1117 0.1019 0.1241 0.1710 
Crx 0.4439 0.6429 0.4978 0.6065 0.5397 0.6429 0.6483 
- Arrhythmial i Lungdiscrete Se YaleB ae Cars 
m z - A 
O94113 15 17 19 19B 04 6 8 10 12 14 0234567 
类 个 个 聚 类 个 数 聚 类 个 数 
(a) (b) (c) (d) 
Breast Auto Balance Crx 
08 08 08 08 
oa oa oa oa 
g PERI ERVE "2 ot a i < ee 
(e) (f) (g) (h) 
图 2 聚 类 个 数 与 ACC 和 NMI 


间 的 约束 ， 使 得 到 的 关系 矩阵 较 传 统 谱 


聚 类 所 使 用 的 拉 普 拉 # 


矩阵 更 能 表征 数据 集 的 结构 特点 。 因 此 


言 ， 本 文 所 提 算 法 与 对 比 算法 相 比 较 在 ACC 上 的 提升 为 
26.02%、22.45%、24.49%、17.09%、19.39%、13.52% 平 均 提 升 
有 20.49%。 这 些 结果 表明 本 文 提出 的 算法 在 我 们 进行 实验 的 数 
据 集 上 与 对 比 算法 相 比 都 有 一 定 的 提升 ， 这 也 从 侧面 反映 了 本 
文 所 提 算 法 的 合理 性 和 有 效 性 。 例 如 在 Cars 上 表现 最 好 的 SSC 


会 比 传统 谱 聚 类 算法 准确 率 更 高 。 然 而 


该 算法 只 考虑 J 样本 


的 全 局 特性 而 忽视 了 样本 的 局 部 特性 因而 月 


fa 


日 来 描述 数据 集 的 关 


系 矩 阵 就 不 是 那么 精确 ， 这 使 得 聚 类 结果 


不 完全 准确 。 而 本 


文 提 出 的 聚 类 算法 利用 LPCA 处 到 
局 部 特性 ， 尽 可 能 多 地 维 


E， 较 好 的 描述 了 数据 样本 的 
持 了 关系 矩阵 信息 的 丰 


富 性 ， 即 


AJIJ 


能 多 地 保留 了 原始 数 ] 


据 


居 集 的 信息 ， 


使 获得 的 聚 类 结果 更 加 准确 。 


从 表 3 中 可 以 看 出 ,本 文 所 提出 的 算法 除了 在 数据 集 Breast 


上 不 是 最 好 , 在 其 他 数据 集 上 均 好 于 对 比 算法 。 同 村 


以 Cars 数 


集 为 例 , 本 文 所 提出 的 算法 与 对 比 算法 相 比较 在 NMI 上 的 提 


升 为 14.04%、8.07%、7.51%、13.27%、12.54%、11.01% 平 均 提 


升 为 11.07%。 这 表明 本 文 所 使 月 
阵 ， 更 好 的 反映 了 数据 样本 之 间 的 关系 ， 因 此 它 在 标 ; 
的 值 上 比 其 他 对 比 算法 更 高 。 同 档 
现 最 好 的 算法 LSR 为 
的 内 聚 性 , 使 得 和 其 他 对 比 算 法 相 
是 它 仍 然 是 从 全 局 出 发 来 考虑 数据 集 
的 其 他 同样 重要 的 特征 ， 比 如 数据 集 所 含 的 交叉 点 分 布 的 情 
况 。 而 本 文 提出 的 算法 ， 通 过 对 中 心 点 的 
及 最 后 按 距 离 对 剩余 样本 的 划分 ， 不 仅 考 虑 了 样本 的 
， 而 且 使 数据 集中 的 交叉 点 得 到 了 较 好 


JE 


NMI 


阵 


据 


以 


征 


上 表 


HAY SC-LPCA 算法 得 到 的 关系 


互信 


ST 
= 


比较 , 它 的 NMI 


EX} Cars 数据 集 而 言 ， 以 在 
。 它 通过 约束 提高 了 关系 外 


TEN. 


值 会 更 高 。 


的 特性 ， 并 没有 考虑 数 


挑选 配合 LPCA 处 理 


出 的 算法 会 在 NMI 上 比 其 他 对 比 算法 更 好 。 


为 


G 


确 
据 


从 表 4 中 可 以 看 出 ,本 


局 部 特 


的 划分 ， 因 此 本 文 提 


文 所 提出 的 算法 除了 在 数据 集 Breast 
上 不 是 最 好 , 在 其 他 数据 集 上 均 好 于 对 比 算法 。 以 Cars 数据 集 


Wi 


例 ， 本 文 所 提 算 法 与 对 比 算法 相 比较 在 执行 时 间 上 的 提升 为 
0.06s、105.388s、0.491s、0.428s。 这 表明 通过 数据 集 的 挑选 来 


期 对 代表 性 的 样本 聚 类 ， 然 后 后 


期 依 


实在 一 定 程度 上 缩短 了 聚 类 所 用 的 时 间 。 而 
定 程度 上 减少 了 聚 类 的 计算 量 ， 从 而 也 达到 
提升 了 算法 的 执行 时 间 的 目的 。 


A 


的 维度 也 在 


照 距离 对 剩余 样本 聚 类 


表 4 不 同 数据 集 下 各 算法 的 执行 时 间 /s 
数据 集 名 称 LRR SSQP NCut SSC SC-LPCA 

Arrhythmia 6.602 127.139 1.697 2.775 1.152 

Lungdiscrete 0.327 0.178 0.500 0.142 0.090 

YaleB 40.511 120.105 16.41 19.36 14.772 

Cars 0.327 105.655 0.758 0.695 0.267 

Breast 0.502 392.849 0.538 2.168 0.544 

Auto 0.405 17.277 0.694 0.271 0.087 

Balance 0.367 52.274 1.189 0.821 0.361 

Crx 0.493 371.820 0.463 1.822 0.387 
为 了 更 好 地 反映 聚 类 个 数 对 聚 类 性 能 的 影响 ， 本 文 在 实验 
过 程 中 通过 调节 算法 中 的 样本 个 数 阐 值 %, BRE r EN 
BAE E 和 投影 规模 阔 值 7 以 及 0,1 化 W HIRE 8 使 得 算法 能 得 
到 不 同 的 聚 类 个 数 。 具 体 在 得 到 不 同类 数 的 情况 下 算法 性 能 如 
图 2 所 示 。 结 果 表 明 在 这 8 个 数据 集 上 ， 本 文 提 出 的 算法 并 不 


一 定 都 是 在 得 到 真实 类 的 情况 下 聚 类 性 能 最 佳 。 例如 对 于 Auto 
数据 集 而 言 是 在 得 到 4 类 的 情况 下 取得 最 佳 聚 类 效果 ， 而 不 是 


在 真实 类 6 聚 类 效果 最 佳 。 本 文 


区 


的 分 解 而 


类 个 数 ， 因 此 能 获得 更 好 的 聚 类 结果 。 


通过 对 数据 集合 所 构成 的 连通 
自动 地 对 数据 集 进 行 聚 类 划分 ， 不 用 去 人 为 指定 聚 
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结束 语 
本 文 是 对 传统 谱 聚 类 算法 的 改进 ， 它 先 通过 挑选 有 代表 性 


WE 


# 本 数据 进行 聚 类 ， 然 后 再 推广 到 其 他 所 有 样本 。 这 使 得 提 


出 的 算法 能 有 效 降低 聚 类 的 计算 量 ， 同 时 通过 利用 LPCA 处 理 
保持 了 数据 的 局 部 特征 提高 了 聚 类 结果 的 ; 
聚 类 的 规模 。 此 外 ， 
必 像 K-means 一 样 需要 事先 知道 数据 的 


E 确 性 同时 也 降低 了 
依据 数据 的 分 布 情况 进行 聚 类 ， 而 不 
KKH 


sy A 
TAE m J 


实 应 用 中 的 实用 性 。 


ani 


联合 使 用 中 心 点 挑选 和 LPCA 处 到 


RS 
法 的 比较 分 析 ， 提 出 算法 能 在 低 维 数据 集 上 获得 比较 好 的 聚 类 


交叉 点 划分 困难 的 问题 。 通 过 在 多 个 数据 集 和 多 个 对 比 算 


结果 ， 同 时 也 i 


据 ， 
力 。 


明了 聚 类 算法 不 一 定 都 在 真实 类 数 
在 未 来 工作 中 需要 进一步 考虑 算法 在 处 理 
甚至 超 高 维 大 数据 的 能 力 ， 以 及 对 含 噪声 的 数据 处 理 的 能 
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